实证研究中交叉项的使用和解读策略指南案例
可有偿投稿计量经济圈,计量相关则可
邮箱:econometrics666@sina.cn
编辑:计量经济圈; 来源:社会学研究; 作者: 彭大松.
所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到研究小组交流访问.计量经济圈招募金融计量和时间序列研究小组组长.文末有推荐电影.picture:@静溪
今天,我们微观计量研究小组将为计量经济圈的圈友引荐一篇“关于交叉项使用和解读策略指南案例”。我们已经推送过相关的交互项(计量回归中的交互项到底什么鬼? 捎一本书给你),但是对于圈友们深入理解实证中的交互项操作还是远远不足的。这篇文章最精彩的地方,就是连续不断的使用各种交互项,然后区分主效应和交互效应,并且对这些效应的解读是非常清晰易懂的。只要你记得各个虚拟变量的参照组是什么,然后你就可以解读你的各个交互效应了。
注意,我们研究小组主要有选择地展示文中值得学习和借鉴的实证研究策略策略。因此,我们把一些对于我们理解这些实证方法而言不那么重要的部分省略了。下面,我们之所也把文章使用的变量和定义列出来,是因为这会对我们理解交叉项的解释提供依据。
数据、变量与方法
(一)数据来源与变量操作化
本研究采用北京大学中国社会科学调查中心主持的中国家庭追踪调查数据(CFPS 2010)。①该数据有婚姻史方面的问项,为再婚研究提供了极大的便利 。
在样本选取上,我们考虑如下三点 :
一是考虑到经历 多次再婚的个体与初次再婚个体 的影响因素可能有所差异 ,因此只抽 取个体初次再婚信息进行分析 ,而对个体的二次再婚信 息不再纳入分 析 ;
二是尽管丧偶也是再婚的重要来源之一 ,但考虑到离婚再婚个体和 丧偶再婚个体在再婚动机 、再婚需求等方面有着很大区别 ,从而可能使 得两类样本在再婚影响因素上也不大相 同,因此本研究样本 只保 留离 婚再婚样本 ;
三是CFPS2010数据是基于家庭 的调查数据 ,有少数家 有1个以上再婚被访者情况 ,考虑 到家庭背景相似性可能对 系数估计带来的影响,本文借鉴李建新 (2014)的做法,只保留其中1个被访者的信息。结合问卷 问项 ,我们从数据库中获取分析样本 1257个,剔除信息不全样本,最后获得有效样本 1033个 。
根据本文的研究目的,本文将因变量操作化为再婚发生比(或再婚风险率,hazard rate of remarriage)。再婚发生比是指个体离婚后一段时间内发生再婚的概率比。④本研究的风险期起点设定为初婚解体时间(单位为“月”),终点设定为被访者再婚时点,未发生再婚 的被访者以调查时点为终点(2O1O年 7月)。在这段时间内仍然没有再婚的个体视为删失样本
本研究的自变量分为两个部分,包括反映个体因素的变量和反映家庭影响的变量。前者主要包括受教育程度、收入、工作、是否有未成 年子女同住 、住房条件等变量 。后者主要包括 家庭规模、父母是否健在、亲属网络规模、是否隶属于大家族等变量。另外,我们将户籍、婚姻解体时的年龄、性别、民族、地区等作为控制变量纳入分析。
变量具体操作化方法如下 :
(1)婚姻解体年龄通过 出生年龄和初 婚解体发生时间来计算。考虑到初婚发生时个体所处的年龄段不同, 其再婚愿望和动机可能有差异,本文借 鉴兰帕德和派格 (Lampard& Pegg,1999)的做法 ,将年龄分为4组,即25岁以下年龄组(参照组 )、25—34岁年龄组 ,35—45岁年龄组,以及 45岁 以上年龄组。
(2)受教育程度根据个人问卷中详细的教育史调查信息,可以十分方便地操作化为 4个类别,即未 受正 规教 育 (参照组 )、接受义务 阶段 教育 (小学、初中)、接受 中等教 育 (高中、中专 )以及接受 高等教育(大专及 以上教 育)。
(3)收入操作化为年收入对数。工作指个体是否从事非农工作 , 以农业工作为参照组。性别 、民族也处理为二分变量 ,分别以女性 、汉 族作为参照组 。
(4)地域操作化为分类变量 ,根据 中国地理区划将其 划分为西部地区(参照组 )、中部地 区和东部地 区。
(5)住房情况用两 个变量来测量 ,分别是 “住房条件评价”、“是否存在居住 困难”。住房 条件评价是由访问员根据受访者所在地的住房情况做 出的一种评价 , 赋值 1—7,分别代表 了住房条件从差到好 的等级水平 ,在实际分析 时 做连续变量处理。是否存在住房 困难操作化为二分变量 (住房困难为 参照组 )。
(6)家庭因素通过 4个变量来测量 :家庭规模操作化 为连 续变量 ;父母是否健在操作化为二分变量 ,以父母双方均去世为参照 组 ;家庭亲属网络规模操作化为连续变量 ,以春节走亲戚人数来测量 ; 是否隶属于大家族操 作化 为二分变量 ,以是否有完整的族谱来测量。一 般而言,完整的族谱通常和较大 的宗族或家族相联系。我们认为有 完整族谱 的家庭隶属于大家族 的可能性较大 。因此 ,将有完整族谱 的 家庭视为隶属于大家族 的家庭 ,而没有完整族谱的家庭则成为参照组。
(7)未成年孩子,即是否有18岁以下子女 同住、这里操作化 为三分类 变量,即无未成年子女 (参照组 )、有未成年子女但不同住、有未成年子女 目.同住 。
(二 )分析方法与策略
本文运用事件史分析中常用的COX比例风 险模型来探索中国人再婚行为及其影响机制。事件史方法的优点是可以同时考虑删失样本及时变变量提供 的信息。COX比例风险模型的优势是无需参照任何理论分布,且系数估计稳定。
四、结果 与分析
(一)生存数据的描述性分析
本研究运用先将数据转换成适合事件史分析数据,然后对有关变量进行描述性统计分析。结果表明,被访对象平均再婚历时为 6.4年 ,平 均再 婚发生比为 0.63。农村被访者平均再婚历时为 5.5年 ,城市为 6.9年 。农村平均再婚发生率 0.73,城市则为 0.57。性别上也有差 异,男性再婚历时平均为6.8年 ,女性为 5.8年 ,这表 明相比男性而言,女性会更快地再婚。再婚发生率也存在地区差异 ,西部地区平均再婚历时要比中部和东部地区短1年以上。住房条件也是影响再婚的重要 因素,有住房 困难的个体要 比无住房 困难的个体延迟0.6年。有未成年孩子且同住的被访者在一定程度上加速了其再婚步伐,缩 短了再婚的等待时间。
具体而 言 ,无未成年孩子的个体再婚历时平均为 7.3年 ,有未成年孩子但不 同 住的个体再婚历时平均为 5.8年 ,有未成年孩子且同住的个体 ,再婚历 时平均则缩短为 3.4年。这些描述性统计分析 ,可以让我们从整体上 了解单个变量对个体再婚行为的影响。 此外 ,我们通过 K—M生存函数估计发现 ,在婚姻解体 的最初阶段 (0—5年),生存率急剧下 降,而到 了一定阶段 以后趋于平缓。这就表 明,婚姻解体的最初几年是再婚的高发阶段 ,而后再婚发生相对缓慢甚 至停止 。再婚在整体上所表现出来的这种规律性与我们实际情况大体 一 致 。
(二 )再婚的影响 因素的检验
1.家庭因素的影响效应估计
考虑到本文一个重要 的任务是检验家庭因素对再婚行为 的影响。 我们将采取两步分析策略。首先在模型 1中只纳入控制变量和家庭相 关变量进行估计 。然后在模型 1的基础上纳入对再婚有潜在影响的个 人变量 ,形成模型 2。最后 ,通过 比较模型 1和模型 2的估计结果 ,以 确定家庭因素影响再婚行为的效应是否具有稳定性 (见表 1)。
模型 1只纳入 了家庭变量和年龄 、性别 、地 域、民族等控 制变量。 从分析结果 可以看出 ,衡量家庭对再婚影响的 4个变量 中,除 了“父母是否健在”这一变量统计不显著之外,其他 3个关键变量均有统计显著 性。而且 ,3个统计显著的变量对再婚行为也都具有正向影响。这一结 果基本上证实了假设 1。模型 2在模型 1的基础上纳入全部的个人影响 变量 ,结果发现家庭因素的 4个变量的估计值几乎没有发生变化 ,而且 依然具有统计显著性。这表明家庭变量对再婚 的影响相 当稳定。
我们以模型 1的系数估计来说明家庭对再婚的影响效应。首先 ,家庭规模每 增加 1人 ,其家庭成员再婚发生 比平均提高 17% (e ^(0.16)-1=0.17)。这 一 结果验证 了假设 1b,即家庭成员越多、规模越大的家庭 中,个体再婚 的可能性越大。其次 ,家庭亲属交往 网络规模也有助于家庭成员再婚。 家庭亲属交往 网络规模每增加 1家,将会让再婚发生 比平均提高 2% (e^(0.02)-1= 0.02)。这一结果证实了假设 1c,即亲属交往频繁,亲属网络 规模越大的家庭中,个体再婚的可能性增加。第三 ,隶属于大家族的家 庭成员再婚概率会显著提高。相比没有族谱的家庭而言,有族谱的家庭成员再婚概率比将会提高 22%(e^(0.20)-1= 0.22),假设1d得到证实。
在假设 1中设置 的4个分假设 中,惟有假设 1a没有获得数据的支 持。笔者认为这其中的原 因可能是父母对离婚子女再婚的影响具有两 面性 。一方面 ,父母积极为子女寻找新 的配偶 ,但通过父母 的途径为再 婚子女寻找配偶 的效率不高。另一方面 ,父母健在可以为子女提供力 所能及的帮助 ,例如照看孩子 、帮做家务等。这在一定程度上大大削减 了子女离婚后为生活所迫而草率再婚的行为 (下文模 型 9的交互项分 析证实了这种推测)。
2.个人资源的影响效应估计
模型 2也估计了个人资源对再婚 的影响。总体而言,除了“教育” 之外 ,其余的测量个人资源的相关变量均对再婚有着正向影响。其中, 年收入对数尽管对再婚影响微弱 ,但结论仍具有统计意义 。参加非农 工作也将显著提高个体的再婚发生概率 ,即与没有非农工作 的离婚者 相比,有非农工作 的人再婚发生比平均提高 16% (e^(0.15)-1= 0.16)。住 房条件在再婚 中的正 向作用尤为显著。代表住房情况的变量 中,无一 例外地都具有统计显著性。具体来说 ,住房条件评价值每增加 1个单 位 ,再婚发生 比平均提升 6%(e^(0.61)-1= 0.06)。与有住房困难 的离婚 者相 比,无住房困难 的离婚者再婚发生 比平均提高了 22% (e^(0.20)-1= 0.22)。这充分说明了“住房”对于中国人再婚有重要意义 。
为了检验个体资源因素对再婚的影响是否因为性别不同而有所差异 ,笔者在模型 2的基础上 ,纳入 了性别与个体资源交互项进行验证 (见表 2)。在交互项分析 中,除了“工作”、“收人 ”的交互项不显著之 外 ,其他各项交互项均具有统计显著性。这一结果暗示 ,个体资源因素 对两性再婚作用存在显著差异 。
模型 3中,工作主效应估计值为 0.20(P<0.05),说明女性参加非 农工作将有利于其再婚。具体来说 ,与未参加非农工作 的女性离异者 相 比,有非农工作 的个体再婚发生 比将提高 22%(e^(0.20)-1= 0.22)。性 别主效应 的估计值 为 一0.29(P<0.05),表 明未参加非农工作的男性 将 比未参加非农工作的女性再婚更 困难 ,其再婚发生比相应下降 25% (e^(-0.29)-1=- 0.25)。性别与非农工作 的交互项并 没有统计显著性 , 这表明参加非农工作对再婚 的促进作用不存在性别差异 ,即无论男性 还是女性 ,参加非农工作对再婚都有相似的促进作用。这一结果证实 了假设 4。
模型 4纳入 了性别 与收 入 的交 互项 ,结果 显示 :性别 主效应 为 一 0.53(P<0.01),这表示与女性相 比,收入低对男性再婚的负面影响 更大 。低收入女性 比低收入男性再婚发生 比要平均高 出 4l% (e^(-0.53)-1= -0.41)。收入主效应估计值为 一0.01(P<0.1),表明收入对女 性的再婚有微弱的负向影 响,性 别与收入 的交互效应为 0.03,尽管这 一 估计值不具有统计显著性 ,但收入对男性再婚的正 向影响大于女性 的趋势是 明确的。由此我们认为 ,收入对女性再婚具有两面性 ,一方面 对再婚有促进作用 ,但随着收人 的增长 ,其对婚姻的依赖程度却出现了 下降趋势 ,进而延缓了再婚进程。
模型 5纳入了住房条件和性别 的交互项 。模 型 5估计结果显示 , 性别主效应为 一1.25(P<0.001),这表示 在控制其他变量 的前提下 , 住房条件 差 的男 性 平 均 比同 等条 件 的 女性 再 婚发 生 比下 降 7l% (e ^(-1.25)-1= -0.71)。住房条件主效应 的估计值为 一0.06,说明住房 条件的改善对女性再婚有负 向影响。这种负向作用机制 ,同样可解 释 为女性对婚姻依赖程度下降以及找寻合适再婚对象 的时间延长所致。 交互项效应值为 0.22(P<0.001),这说明住房条件的改善对于提高男 性再婚 比的作用更显著 ,在控制其他变量的情况下 ,住房对男性再婚的 促进作用 比女性高出 18.8%[(e^(0.22)-1+(e^(-0.06)-1= 0.188]。
模型 6纳入 了教育 和性别的交互项 ,性别主效应为 一0.51(P< 0.00),表示其他条件不变的前提下,未受正规教育的男性与 同等条件 的女性相 比,再婚发生比相应下降 40%(e^(-0.51)-1= -0.40)。教育 的 3个估计值均小于 0,说 明随着教育程度的提高 ,女性再婚发生 比将呈 现下降趋势 。与未受正规教 育的女性相比,受过 中等教育 的女性再婚 发生比将下降 37%(e^(-0.47)-1=-0.37),受过高等教育的女性再婚发生比将下降 56% (e^(-0.82)-1= -0.56)。3个交互项 中有 2项具有统计 意义 ,这表 明接受 中等教育和高等教育对再婚 的作用存在性别差异 。 具体而言 ,与未受正规教育的女性相 比,受中等教育的男性再婚发生 比 平均下降 19%[e^(0.46)-1+e ^(-0.47)-1+e^(-0.51)-1= -0.19],受 过高等教育 的男性再婚发生 比则平均下降 7%。
除了教育因素外,模型 4至模型 6的分析结果基本上验证 了假设 3的推断 。即个体资源优势对再婚 的影 响存在性别差异 。对于男性而 言,较好 的经济收入 、良好 的住 房条件 、参与非农工作都有利于再婚 。 但对于女性而言,则 因资源类型不 同而有不同的影响。具体来说 ,除 了 工作这个变量对女性再婚有积极影响之外 ,其余个人资源因素均对其 再婚构成负向影响。
3.城 乡差异 、未成 年 子女及 年 龄 的影 响
再婚的性别差异不仅体现在个体资源对再婚影响方面 ,也体现在 “城乡”、“是否有未成年子女 ”以及“年龄”这样 的因素上 。为 了检验 城乡、子女 因素是否 因为性别不 同而对再婚产生不 同的影响 ,我们分别 设置了性别与城 乡、未成年子女 以及 年龄等变量 的交互项 进行 验证 (见表 4)。
模型 7中加人 了性 别与户 籍交互 项。结果 显示 ,性别 主效应 为 一 0.76(P<0.001),这说明在控制其他条件 的情况下 ,与农村女性相 比,农村男性 的再婚发生 比平均要低 53% (e^(-0.76)-1= -0.53)。这也 就意味着农村男性再婚将 比农村女性更加 困难 。户籍主效应估计值为 一 0.57(P<0.001),说 明在控制其他条件不变 的情况下 ,城市女性 相 比农村女性而言 ,再婚发生比平均下降 43% (e^(-0.57)-1= -0.43)。交 互项系数估计值为 0.77(P<0.001),表 明城市男性再婚发生率 明显高 于农村女性 19%[e^(0.76)-1+e^(-0.57)-1+e^(-0.76)-1= -0.19], 更明显高于城市女性 。这一分析结果基本证实 了假设 2的推断 ,即与 城市女性相 比,城市男性再婚的可能性相对较高。与农村女性相 比,农 村男性再婚的可能性相对较低 。
模型 8将性别与未成年子女变量的交互项纳入模型进行估计。结 果显示,性别主效应为 一0.46(P<0.001),这表明在无未成年子女 的情 况下,男性再婚发生比比女f生低 37%(e^(-0.46)-1= -0.37)。有未成年子 女但不同住的主效应估计值为 0.64(P<0.001),表明与没有未成年子女 的女 陛相比,有未成年子女的女性再婚发生 比将提高 90% (e^(0.64)-1= 0.90)。有未成年子女且 同住的主效应估计值为 0.96(P<0.001),表明 一 旦未成年子女与其同住 ,再婚发生比将成倍增加。交互项的效应值分 别为 1.02(P<0.01)和 0.30(P<0.01),这表 明未成年子女对再婚的 影响存在性别差异。具体 而言 ,有未成年子女 的男性再婚发生 比是无 未成年子女的女性 的 2.3倍 [e^(1.02)-1+e^(0.64)-1+e^(-0.46)-1=2.30],有未成年子女且 同住 的男性再婚发生 比则是其 1.69倍 。这一 结果基本验证了假设 5以及假设 5a的推断 。
模 型 9将未 成 年 子 女 变 量 与 父 母 是 否 健 在 变 量 的交 互 项 纳 入 分 析 ,旨在检验隔代抚养对再婚带来的影响。父母健在这一变量 的主效 应估计值为 一0.16,但并不显著。这表明在没有未成年子女的前提下 , 父母是否健在对个体 的再婚并不构成实质性影响。未成年子女 的两个 主效应值分别为 1.27(P<0.001)和 0.96(P<0.001)。这表明父母都 不在世的情况下 ,未成年子女 因素都对再婚具有促进作用。两个交互 项估计系数均小于 0,并且未成年子女同住 与父母健在交互项系数估 计值为 一0.35(P<0.O1)。这表 明父母健在会削弱未成年子女对再婚 的影响。这一分析结果证实 了假设 5b。
模型 10纳入了年龄与性别交互项 ,旨在检验年龄因素对再婚影响是否存在性别差异。结果显示 ,性别主效应系数为 一0.25,且没有统计 显著性 。这表明对于 25岁以下年龄组而言 ,年龄对再婚的影响没有性 别差异。三个年龄组主效应值均小 于 0,这表明女性随着年龄 的增长 , 年龄对再婚的影响具有负向效应。除了25—34岁年龄组不显著外 ,其 他两组均有统计显著性。这说 明,年龄越大对女性再婚 的负向影 响也 越强 。具体来说 ,与 25岁 以下女性相 比较 ,35—44岁年龄组女性再婚 发生 比下降 27% (P<0.05),45岁 以上年龄组女性 再婚发生 比下降 52%。三个交互项 中只有“45岁 以上年龄组 ”与性别的交互项有统计 意义。从三项估计 系数来看 ,尽管男性再婚也受到年龄增长带来 的负 向影响 ,但其影响程度 比女性小得多。由此可见 ,年龄作为一种特殊资 源对于女性的意义远远超过了男性 。这一结果也验证 了假设 6。
参考文献:
彭大松,个人资源、家庭因素与再婚行为——基于CFPS2010数据的分析[J].社会学研究.2015,(4).
计量经济圈推荐
2.RDD断点回归, Stata程序百科全书式的宝典
3.Generalized分位数回归, 新的前沿因果推断方法
4.Heckman模型out了,内生转换模型掌控大局
5.PSM倾向匹配Stata操作详细步骤和代码,干货
6.条件Logit绝对不输多项Logit,而混合模型最给力
7.广义PSM,连续政策变量因果识别的不二利器
8.自回归VAR模型操作指南针,为微观面板VAR铺基石
9.有限混合模型FMM,异质性分组分析的新筹码
10.政策评估中"中介效应"因果分析, 有趣的前沿方法
11.多期三重差分法和双重差分法的操作指南
12.多期双重差分法,政策实施时间不同的处理方法
13.随机前沿分析和包络数据分析 SFA,DEA 及操作
14.你的内生性解决方式out, ERM已一统天下而独领风骚
15.多期DID的经典文献big bad banks数据和do文件
16.面板数据里处理多重高维固定效应的神器
17.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁
18.面板数据计量方法全局脉络和程序使用指南篇
所有计量经济圈方法论丛的do文件都放在社群里,可以直接取出使用运行,也欢迎到研究小组交流访问.感谢咱们计量经济圈社群伙伴们的理解,愿这个社区陪你走过一段难忘的路途。
计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。
进去之后就能够看见这个群公告了